如何让 AI 语音合成听上去更有“人情味”？

infoQ 微软丹棱街5号 2021-04-27

丹棱君有话说：“听”时代来临，德勤预测有声读物市场规模将在 2020 年大规模提升。不断成熟的智能语音能力将帮助相关企业提高生产力和用户体验。作为微软 AI 能力的一部分，微软智能语音性能已可媲美人类水平，经过不断技术迭代，合成的语音越来越有“人情味”，应用越来越广泛，这是如何实现的？来跟丹棱君一探究竟。对了，微软在线技术峰会明天即将开幕，扫描文末二维码来报名吧。

语言的多模态应用在不知不觉间已成为人们生活中习以为常的技术，一句简单的语音识别转写、一次短暂的智能客服答疑……这些都是 AI 语音交互技术应用为人们生活带来的便利，与此同时，其社会价值与意义也在被重新估判......

人机交互，机器的声音越来越需要“温度”

语音技术从根本上改变了人和机器的关系，也彻底改变了我们与软件交互的方式。它主要分为语音识别（Speech Recognition, 或者 Speech to Text）、语音合成（Speech Synthesis, 或者 Text to Speech）、自然语言处理。其中，语音合成技术发展最早，且应用已较为普遍。

让计算机具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。语音合成技术通过机器自动将文字信息转化为语音，相当于给机器装上了人工嘴巴。而完美的人机交互体验无法忽略“说”的环节，因此，语音合成的重要性日益凸显。

从早期的机械化语音合成开始发展至今，语音合成的应用场景经历了较大的转变。以前语音合成应用都是在相对单调的场景，现在其应用场景更加复杂，智能助手、智能机器人、文学阅读等诸多领域都能见到语音合成技术的身影。

在语音合成技术应用不断深入的同时，已有的商业模式也对场景优化提出了更高的要求。例如，在有声读物方面，用户需求越来越个性化，单调的机械声已完全不够；在机场、车站广播等服务行业，温柔、甜美的音质更能拉近与乘客的距离；在听新闻内容时，人们往往期待一个有威信的、稳重的声音；而在客服助理场景下，人们又希望这个声音可以更加热情亲切，善解人意...... 因此，如何让合成的声音听起来自然并富有情感，是语音合成领域的一个主要发展方向。

利用基于深度神经网络的语音合成系统增强语音交互真实感

在传统语音合成技术中，波形拼接合成方法无疑占有着重要的地位。其基本原理就是根据输入文本的信息，从人工录制与标注的语料库中挑选合适的基元（通常为音素或音节），进行少量的调整，然后采用波形拼接的方式得到与待合成文本相对应的语音序列。但是波形拼接合成方法需要准备海量的高质量语料，同时，该方法也不具备扩展性，不能面向需求适应到不同的应用场景。

为了提升合成语音自然度、降低语音生成对语料库的依赖度，并增加语音合成系统的可扩展性，研究者们又提出了参数化的合成方法。在同等数据规模下，参数合成的方法能够产生相比拼接合成方法自然度更好的合成语音。然而，这个方法也还存在着很大的局限性，比如在字边界处会存在明显的拼接痕迹，使其合成语音与自然语音有着很大的差异，不能满足人们对自然语音合成的期望。

近年来，随着机器学习技术的不断成熟，基于深度神经网络的建模方法逐渐被语音合成领域的研究者所采用。微软作为最早参与语音合成技术研发与生产的公司之一，基于 30 年的技术积累微软率先于 2018 年在全球范围内推出了端到端的深度神经网络语音合成服务（Neural Text to Speech, Neural TTS），将合成语音的音质与自然度提升到与人类接近的水平。

该系统利用深度神经网络来克服传统的文本到语音转换系统的局限性，匹配口语中的语音顿挫和语调模式和韵律，并将语音单元合成为计算机语音。由此合成的语音在节奏、语调和顿挫感上都几乎和真人一样，具备人类语音一样的自然韵律和词汇清晰度。这可以在人类与 AI 系统交互时大大减轻听觉疲劳，是语音合成领域的重大突破。

目前，微软的 AI 语音技术服务支持全球近 50 种语言，已遍及 140 个国家和地区。其中，端到端神经网络语音合成技术已支持 5 种语言（英文、中文、德语、葡萄牙语、意大利语），为教育教学、业务出海、有声书等领域提供着坚实的技术支持。

2019 年 1 月 31 日，微软 AI 智能女声“晓晓”在央视新闻联合微软 AI 推出的互动融媒体产品《你的生活 AI 为你唱作》中正式亮相，这是基于微软 Azure 云的端到端深度神经网络语音模型的语音合成服务。微软晓晓不仅在语气、语音、语调等方面无限接近真人效果，还可以用带有不同的“情感”的声音效果满足不同的场景需求。

2019 年 2 月 20 日，小米正式发布人工智能语音手机小米 9。不同于以往提前录制好的语音服务，其内置的人工智能版王源成为一大亮点。通过与微软 AI 语音的合作，小米 9 可以实时、在线合成王源的声音，随时向用户问好，陪用户聊天并送上节日祝福。这些都让“米粉们”欣喜不已。

2019 年 11 月，微软更进一步推出了基于深度神经网络语音合成技术的声音定制服务 Custom Neural Voice 的预览。该服务能使用极少量的声音样本定制出各式各样的高度仿真的人工智能声音，且效果更加自然逼真。

事实上，无论是在 AI 行业还是用户群体中，AI 语音定制的能力始终被抱以高度期待。利用 AI 模拟人声，不仅可以注入陪伴、记忆等诸多社会情感因素，还能借助用户熟悉的声音触发更多的应用想象。而微软的 Custom Neural Voice 能够将制作一个高品质声音所需要的训练数据规模降低到十分之一甚至更低，这也让 AI 语音定制化这件事，不用耗费过多时间和资源，以更加简单的方式就能轻松“飞入寻常百姓家”。

不忘爱与责任，微软赋予 AI 语音真正的“人情味”

在普通群体提供智能、先进的技术产品的同时，微软也在借自身先进的 AI 语音技术为残障人士的生活提供便利。对于只能通过触摸和听觉来感知世界的视障人士而言，阅读是一种奢望，他们通常是通过触摸阅读盲文书籍，耗时是健全人的数倍。或者用读屏软件或者其他技术通过语音获得信息。为了让视障人士拥有更好的阅读体验，微软与红丹丹视障文化服务中心达成合作，探索研究利用 AI 技术将文字合成电子有声读物。

2014 年，微软和红丹丹一起为视障人士在 Azure 上搭建了云端有声图书馆——心目图书馆，为盲人朋友提供便捷的有声图书阅读服务，丰富他们的文化生活，不断学习和进步。目前，该图书馆已经覆盖全国 105 所盲校，越来越多的人通过有声图书感知到世界的精彩。

2019 年，微软人工智能中文女声“晓晓”通过自动合成有声读物，协助红丹丹极大提高了制作有声内容的效率。微软的深度神经网络声音定制服务 Custom Neural Voice 更是基于红丹丹培养出的全国第一个视障播音员董丽娜老师的语音数据作为原型，为红丹丹定制了一个发音标准、情感饱满、同时为盲人朋友们所熟悉的人工智能声音，并提供了一套基于 AI 语音的智能有声内容创作平台，使红丹丹及其志愿者们可以通过界面化的操作，快速地使用不同的音色生成有声内容，解决了之前人工有声内容创作周期长以及传统 TTS 合成声音情感单一等问题，显著改善了视障人士有声读物匮乏且读物声音机械、空洞的阅读体验。

未来，微软还将持续更新智能技术，让 AI 语音成为视障人士感知世界、深入了解文化的坚固桥梁。

随着语音合成技术的快速发展，机器所生成的语音必然会越来越自然生动，也会越来越具有情感表现力。作为全球最早投入人工智能研究的企业，微软也会在一次次升级和迭代中，不断冲破技术原有的障碍，满足越来越多的不同用户需求。用技术改变生活，用声音传递温度，微软身体力行地用自己的行动完成着自己的使命——予力全球每一人、每一组织成就不凡。

在语音识别领域，微软的智能语音识别技术也已支持近 40 种语言，涵盖实时语音识别、批量语音转写和后语音质检等多种场景。据了解，微软呼叫中心语音服务已落地包括好事达（Allstate）、毕马威（KPMG）、中国移动、联合利华（ Unilever）在内的科技、保险、通讯等行业的多家世界五百强企业。

预告

4 月 17-18 日，为期两天的微软在线技术峰会特在 18 日当天设置了全天的【 AI&IoT 】专场，届时将会在此专场下进行【微软 AI 语音云圆桌会议：如何利用语音技术应对复杂对话识别和情感声音合成等多种挑战】的内容分享，通过技术实现到场景应用，集中介绍微软在 AI 语音方面的最新成果，扫描下方二维码即可报名参加。

本文转自 InfoQ，作者佘磊

了解更多：

后台入驻微软小冰

如果你很萌，请跟她一决高下！

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！